Modern autonomous driving system is characterized as modular tasks in sequential order, i.e., perception, prediction and planning. As sensors and hardware get improved, there is trending popularity to devise a system that can perform a wide diversity of tasks to fulfill higher-level intelligence. Contemporary approaches resort to either deploying standalone models for individual tasks, or designing a multi-task paradigm with separate heads. These might suffer from accumulative error or negative transfer effect. Instead, we argue that a favorable algorithm framework should be devised and optimized in pursuit of the ultimate goal, i.e. planning of the self-driving-car. Oriented at this goal, we revisit the key components within perception and prediction. We analyze each module and prioritize the tasks hierarchically, such that all these tasks contribute to planning (the goal). To this end, we introduce Unified Autonomous Driving (UniAD), the first comprehensive framework up-to-date that incorporates full-stack driving tasks in one network. It is exquisitely devised to leverage advantages of each module, and provide complementary feature abstractions for agent interaction from a global perspective. Tasks are communicated with unified query design to facilitate each other toward planning. We instantiate UniAD on the challenging nuScenes benchmark. With extensive ablations, the effectiveness of using such a philosophy is proven to surpass previous state-of-the-arts by a large margin in all aspects. The full suite of codebase and models would be available to facilitate future research in the community.
translated by 谷歌翻译
本文介绍了Kings Arena的荣誉,Kings Arena是基于国王荣誉的强化学习(RL)环境,这是世界上最受欢迎的游戏之一。与以前大多数工作中研究的其他环境相比,我们的人对竞争性强化学习提出了新的概括挑战。与对手竞争的一个代理商是一个多代理的问题;它需要概括能力,因为它具有控制和不同的对手竞争的不同目标。我们描述了国王域名荣誉的观察,动作和奖励规范,并提供了一个基于python的开源界面,以与游戏引擎进行通信。我们为纪念国王竞技场的二十个目标英雄提供了各种任务,并为具有可行的计算资源的基于RL的方法提供了初始基线结果。最后,我们展示了国王竞技场的荣誉和对挑战的可能补救措施所面临的概括挑战。所有软件(包括环境级)均可在https://github.com/tencent-ailab/hok_env上公开获得。该文档可在https://aiarena.tencent.com/hok/doc/上获得。
translated by 谷歌翻译
在鸟眼中学习强大的表现(BEV),以进行感知任务,这是趋势和吸引行业和学术界的广泛关注。大多数自动驾驶算法的常规方法在正面或透视视图中执行检测,细分,跟踪等。随着传感器配置变得越来越复杂,从不同的传感器中集成了多源信息,并在统一视图中代表功能至关重要。 BEV感知继承了几个优势,因为代表BEV中的周围场景是直观和融合友好的。对于BEV中的代表对象,对于随后的模块,如计划和/或控制是最可取的。 BEV感知的核心问题在于(a)如何通过从透视视图到BEV来通过视图转换来重建丢失的3D信息; (b)如何在BEV网格中获取地面真理注释; (c)如何制定管道以合并来自不同来源和视图的特征; (d)如何适应和概括算法作为传感器配置在不同情况下各不相同。在这项调查中,我们回顾了有关BEV感知的最新工作,并对不同解决方案进行了深入的分析。此外,还描述了该行业的BEV方法的几种系统设计。此外,我们推出了一套完整的实用指南,以提高BEV感知任务的性能,包括相机,激光雷达和融合输入。最后,我们指出了该领域的未来研究指示。我们希望该报告能阐明社区,并鼓励对BEV感知的更多研究。我们保留一个活跃的存储库来收集最新的工作,并在https://github.com/openperceptionx/bevperception-survey-recipe上提供一包技巧的工具箱。
translated by 谷歌翻译
作为一个与现实世界互动的虚拟世界,元媒体封装了我们对下一代互联网的期望,同时带来了新的关键绩效指标(KPIS)。常规的超级可靠和低延迟通信(URLLC)可以满足绝大多数客观服务KPI,但是很难为用户提供个性化的荟萃服务体验。由于提高经验质量(QOE)可以被视为当务之急的KPI,因此URLLC朝向下一代URLLC(XURLLC),以支持基于图形技术的荟萃分析。通过将更多资源分配给用户更感兴趣的虚拟对象,可以实现更高的QoE。在本文中,我们研究了元服务提供商(MSP)和网络基础架构提供商(INP)之间的相互作用,以部署Metaverse Xurllc服务。提供了最佳合同设计框架。具体而言,将最大化的MSP的实用程序定义为元用户的QOE的函数,同时确保INP的激励措施。为了建模Metaverse Xurllc服务的Qoe,我们提出了一个名为Meta Immersion的新颖指标,该指标既包含了客观网络KPI和元用户的主观感觉。使用用户对象注意级别(UOAL)数据集,我们开发并验证了注意力吸引人的渲染能力分配方案以改善QOE。结果表明,与常规的URLLC相比,Xurllc平均提高了20.1%的QoE改善。当总资源有限时,QoE改进的比例较高,例如40%。
translated by 谷歌翻译
最近,在推荐系统领域中,一个关键问题隐约可见 - 没有进行严格评估的有效基准 - 因此,这会导致不可再生的评估和不公平的比较。因此,我们从实践理论和实验的角度进行研究,目的是为严格的评估做出基准建议。关于理论研究,一系列影响整个评估链中建议性能的超级因素通过对2017 - 2020年在八个顶级会议上发表的141篇论文进行的详尽评价进行了系统的总结和分析。然后,我们将它们分类为独立于模型和模型依赖性的超因子,并相应地定义和讨论了不同的严格评估模式。在实验研究中,我们通过将这些超级因子整合以进行严格的评估来发布DaisyREC 2.0文库,从而进行了整体经验研究,以揭示不同超级效应器对建议性能的影响。在理论和实验研究的支持下,我们最终通过提出标准化程序并在六个数据集上的六个评估指标中提供10个最先进的方法来创建严格评估的基准,以作为以后研究的参考。总体而言,我们的工作阐明了建议评估中的问题,为严格的评估提供了潜在的解决方案,并为进一步调查提供了基础。
translated by 谷歌翻译
基于转移的对手示例是最重要的黑匣子攻击类别之一。然而,在对抗性扰动的可转移性和难以察觉之间存在权衡。在此方向上的事先工作经常需要固定但大量的$ \ ell_p $ -norm扰动预算,达到良好的转移成功率,导致可察觉的对抗扰动。另一方面,目前的大多数旨在产生语义保留扰动的难以限制的对抗攻击患有对目标模型的可转移性较弱。在这项工作中,我们提出了一个几何形象感知框架,以产生具有最小变化的可转移的对抗性示例。类似于在统计机器学习中的模型选择,我们利用验证模型为$ \ ell _ {\ infty} $ - norm和不受限制的威胁模型中选择每个图像的最佳扰动预算。广泛的实验验证了我们对平衡令人难以置信的难以察觉和可转移性的框架的有效性。方法论是我们进入CVPR'21安全性AI挑战者的基础:对想象成的不受限制的对抗攻击,其中我们将第1位排名第1,559支队伍,并在决赛方面超过了亚军提交的提交4.59%和23.91%分别和平均图像质量水平。代码可在https://github.com/equationliu/ga-attack获得。
translated by 谷歌翻译
可再生能源资源(RERS)已越来越纳入现代电力系统,尤其是在大规模分配网络(DNS)中。在本文中,我们提出了一种深度加强学习(DRL)基础的方法来动态搜索最佳操作点,即最佳功率流(OPF),在具有高摄取RER的DNS中。考虑到由RERS引起的不确定性和电压波动问题,我们将OPF分为多目标优化(MOO)问题。为了解决MOO问题,我们开发了一种利用分发网络图形信息的新型DRL算法。具体而言,我们采用最先进的DRL算法,即深度确定性政策梯度(DDPG),以学习OPF的最佳策略。由于DN中的电力流重新分配是连续的过程,其中节点是在时间和空间视图中自相关和相互关联的,以充分利用DNS的图形信息,我们开发了一种基于多粒的关注的空间 - 时间图卷积用于空间颞曲线图信息提取的网络(MG-ASTGCN),为其顺序DDPG准备。我们在修改IEEE 33,69和118总线径向分布系统(RDS)中验证了基于DRL的基于DRL的方法,并显示了基于DRL的方法优于其他基准算法。我们的实验结果还揭示了MG-ASTGCN可以显着加速DDPG训练过程,并提高DDPG在重新分配OPF电流中的能力。所提出的基于DRL的方法还促进了节点故障存在下的DNS的稳定性,特别是对于大型DNS。
translated by 谷歌翻译
深增强学习(DRL)最近在建立金融市场模拟器方面表现出巨大的潜力。然而,由于现实世界市场的高度复杂和动态性质,原始的历史金融数据往往涉及大噪音,可能无法反映市场的未来,降低了基于DRL的市场模拟器的保真度。此外,基于DRL的市场模拟器的准确性严重依赖于众多和多样化的DRL代理,这增加了对市场环境宇宙的需求,并对模拟速度提出挑战。在本文中,我们介绍了一个Finrl-Meta框架,为数据驱动的金融强化学习建立了一个市场环境的宇宙。首先,Finrl-Meta将财务数据处理分开,从基于DRL的策略的设计管道分开,并为财务大数据提供开源数据工程工具。其次,Finrl-Meta为各种交易任务提供了数百个市场环境。第三,Finrl-Meta通过利用数千个GPU核心,可以实现多加工模拟和培训。我们的代码可在https://github.com/ai4finance-foundation/finrl-meta上使用。
translated by 谷歌翻译
视觉变压器在识别和检测等实质性视野任务中显示了很大的视觉表示功率,从而在手动设计更有效的架构方面吸引了快速增长的努力。在本文中,我们建议使用神经架构搜索来自动化此过程,不仅可以搜索架构,还可以搜索搜索空间。中央观点是逐步发展使用权重共享超空网的E-T错误引导的不同搜索维度。此外,我们提供了一般视觉变压器的设计指南,根据空间搜索过程进行广泛的分析,这可以促进对视觉变压器的理解。值得注意的是,搜索空间的搜索模型,名为S3(用于搜索空间的短路),从搜索到的空间实现了卓越的性能,以最近提出的型号,例如在ImageNet上进行评估时的Swin,Deit和Vit。 S3的有效性也在对象检测,语义细分和视觉问题上说明,展示其泛度到下游视觉和视觉语言任务。代码和型号将在https://github.com/microsoft/cream中使用。
translated by 谷歌翻译
Graph neural networks have shown significant success in the field of graph representation learning. Graph convolutions perform neighborhood aggregation and represent one of the most important graph operations. Nevertheless, one layer of these neighborhood aggregation methods only consider immediate neighbors, and the performance decreases when going deeper to enable larger receptive fields. Several recent studies attribute this performance deterioration to the over-smoothing issue, which states that repeated propagation makes node representations of different classes indistinguishable. In this work, we study this observation systematically and develop new insights towards deeper graph neural networks. First, we provide a systematical analysis on this issue and argue that the key factor compromising the performance significantly is the entanglement of representation transformation and propagation in current graph convolution operations. After decoupling these two operations, deeper graph neural networks can be used to learn graph node representations from larger receptive fields. We further provide a theoretical analysis of the above observation when building very deep models, which can serve as a rigorous and gentle description of the over-smoothing issue. Based on our theoretical and empirical analysis, we propose Deep Adaptive Graph Neural Network (DAGNN) to adaptively incorporate information from large receptive fields. A set of experiments on citation, coauthorship, and co-purchase datasets have confirmed our analysis and insights and demonstrated the superiority of our proposed methods. CCS CONCEPTS• Mathematics of computing → Graph algorithms; • Computing methodologies → Artificial intelligence; Neural networks.
translated by 谷歌翻译